package com.afterRain.util;

import java.util.HashSet;
import java.util.LinkedHashSet;

import org.jsoup.Jsoup;
import org.jsoup.nodes.Document;
import org.jsoup.nodes.Element;
import org.jsoup.select.Elements;

/**
* @author 作者 E-mail:
* @version 创建时间：2017年5月11日 下午4:12:25
* 类说明
*/
public class HttpParsingUtil {

	/**
	 * 获取html中href和src中的路径(去重)
	 * @param body
	 * @return
	 */
	public static LinkedHashSet<String> parsingUrl(String body){
		LinkedHashSet<String> hashSet = new LinkedHashSet<String>();
		Document document = Jsoup.parse(body);
		Elements elements = document.select("[href]");
		Elements elements2 = document.select("[src]");
		for (Element element : elements) {
			hashSet.add(element.attr("href"));
		}
		for (Element element : elements2) {
			hashSet.add(element.attr("src"));
		}
		return hashSet;
	}
}
